Spark学习之路（五）Spark伪分布式安装

** Spark学习之路（五）Spark伪分布式安装：** <Excerpt in index | 首页摘要>

Hadoop部分建议参考hadoop伪分布部署

一、JDK的安装

LINUX系统安装jdk（最好是1.8版本）

1.1　上传安装包并解压

1	[root@hadoop1 soft]# tar -zxvf jdk-8u73-linux-x64.tar.gz -C /usr/local/

1.2　配置环境变量

[root@hadoop1 soft]# vi /etc/profile
#JAVA
export JAVA_HOME=/usr/local/jdk1.8.0_73
export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib 
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin

1.3　验证Java版本

1	[root@hadoop1 soft]# java -version

二、配置免密登陆

2.1　检测

正常情况下，本机通过ssh连接自己也是需要输入密码的

2.2　生成私钥和公钥秘钥对

1	[hadoop@hadoop1 ~]$ ssh-keygen -t rsa

2.3　将公钥添加到authorized_keys

1	[hadoop@hadoop1 ~]$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

2.4　赋予authorized_keys文件600的权限

1	[hadoop@hadoop1 ~]$ chmod 600 ~/.ssh/authorized_keys

2.5　修改Linux映射文件(root用户)

1	[root@hadoop1 ~]$ vi /etc/hosts

2.6　验证

1	[hadoop@hadoop1 ~]$ ssh hadoop1

此时不需要输入密码，免密登录设置成功。

三、安装Hadoop-2.7.5

3.1　上传解压缩

1	[hadoop@hadoop1 ~]$ tar -zxvf hadoop-2.7.5-centos-6.7.tar.gz -C apps/

3.2　创建安装包对应的软连接

为解压的hadoop包创建软连接

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ll
总用量 4
drwxr-xr-x. 9 hadoop hadoop 4096 12月 24 13:43 hadoop-2.7.5
[hadoop@hadoop1 apps]$ ln -s hadoop-2.7.5/ hadoop

3.3　修改配置文件

进入/home/hadoop/apps/hadoop/etc/hadoop/目录下修改配置文件

（1）修改hadoop-env.sh

1 2	[hadoop@hadoop1 hadoop]$ vi hadoop-env.sh export JAVA_HOME=/usr/local/jdk1.8.0_73

（2）修改core-site.xml

1	[hadoop@hadoop1 hadoop]$ vi core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://hadoop1:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/hadoop/data/hadoopdata</value>
        </property>
</configuration>

（3）修改hdfs-site.xml

1	[hadoop@hadoop1 hadoop]$ vi hdfs-site.xml

dfs的备份数目，单机用1份就行

<property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/hadoop/data/hadoopdata/name</value>
        <description>为了保证元数据的安全一般配置多个不同目录</description>
</property>

<property>
        <name>dfs.datanode.data.dir</name>
        <value>/home/hadoop/data/hadoopdata/data</value>
        <description>datanode 的数据存储目录</description>
</property>

<property>
        <name>dfs.replication</name>
        <value>2</value>
        <description>HDFS 的数据块的副本存储个数, 默认是3</description>
</property>

（4）修改mapred-site.xml

1 2	[hadoop@hadoop1 hadoop]$ cp mapred-site.xml.template mapred-site.xml [hadoop@hadoop1 hadoop]$ vi mapred-site.xml

mapreduce.framework.name：指定mr框架为yarn方式,Hadoop二代MP也基于资源管理系统Yarn来运行。

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
</configuration>

（5）修改yarn-site.xml

1	[hadoop@hadoop1 hadoop]$ vi yarn-site.xml


<property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
       <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
</property>

3.4　配置环境变量

千万注意：

1、如果你使用root用户进行安装。 vi /etc/profile 即可系统变量

2、如果你使用普通用户进行安装。 vi ~/.bashrc 用户变量

1
2
3

[hadoop@hadoop1 ~]$ vi .bashrc
#HADOOP_HOMEexport HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:

使环境变量生效

1	[hadoop@hadoop1 bin]$ source ~/.bashrc

3.5　查看hadoop版本

1	[hadoop@hadoop1 ~]$ hadoop version

3.6　创建文件夹

文件夹的路径参考配置文件hdfs-site.xml里面的路径

1 2	[hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/name [hadoop@hadoop1 ~]$ mkdir -p /home/hadoop/data/hadoopdata/data

3.7　Hadoop的初始化

1	[hadoop@hadoop1 ~]$ hadoop namenode -format

3.8　启动HDFS和YARN

1	[hadoop@hadoop1 ~]$ start-dfs.sh[hadoop@hadoop1 ~]$ start-yarn.sh

3.9　检查WebUI

浏览器打开端口50070：http://hadoop1:50070

其他端口说明：
port 8088: cluster and all applications
port 50070: Hadoop NameNode
port 50090: Secondary NameNode
port 50075: DataNode

四、Scala的安装（可选）

使用root安装

4.1　下载

Scala下载地址http://www.scala-lang.org/download/all.html

选择对应的版本，此处在Linux上安装，选择的版本是scala-2.11.8.tgz

4.2　上传解压缩

1	[root@hadoop1 hadoop]# tar -zxvf scala-2.11.8.tgz -C /usr/local/

4.3　配置环境变量

[root@hadoop1 hadoop]# vi /etc/profile
#Scala
export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$SCALA_HOME/bin:$PATH

保存并使其立即生效

1	[root@hadoop1 scala-2.11.8]# source /etc/profile

4.4　验证是否安装成功

1	[root@hadoop1 ~]# scala -version

五、Spark的安装

5.1　下载安装包

下载地址：

http://spark.apache.org/downloads.html

5.2　上传解压缩

1	[hadoop@hadoop1 ~]$ tar -zxvf spark-2.3.0-bin-hadoop2.7.tgz -C apps/

5.3　为解压包创建一个软连接

[hadoop@hadoop1 ~]$ cd apps/
[hadoop@hadoop1 apps]$ ls
hadoop  hadoop-2.7.5  spark-2.3.0-bin-hadoop2.7
[hadoop@hadoop1 apps]$ ln -s spark-2.3.0-bin-hadoop2.7/ spark

5.4　进入spark/conf修改配置文件

1	[hadoop@hadoop1 apps]$ cd spark/conf/

复制spark-env.sh.template并重命名为spark-env.sh，并在文件最后添加配置内容

1 2	[hadoop@hadoop1 conf]$ cp spark-env.sh.template spark-env.sh [hadoop@hadoop1 conf]$ vi spark-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_73
export SCALA_HOME=/usr/share/scala-2.11.8
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.7.5
export HADOOP_CONF_DIR=/home/hadoop/apps/hadoop-2.7.5/etc/hadoop
export SPARK_MASTER_IP=hadoop1
export SPARK_MASTER_PORT=7077

5.5　配置环境变量

[hadoop@hadoop1 conf]$ vi ~/.bashrc 
#SPARK_HOME
export SPARK_HOME=/home/hadoop/apps/spark
export PATH=$PATH:$SPARK_HOME/bin

保存使其立即生效

1	[hadoop@hadoop1 conf]$ source ~/.bashrc

5.6　启动Spark

1	[hadoop@hadoop1 ~]$ ~/apps/spark/sbin/start-all.sh

5.7　查看进程

5.8　查看web界面

http://hadoop1:8080/

Spark学习之路 （五）Spark伪分布式安装

一、JDK的安装

1.1 上传安装包并解压

1.2 配置环境变量

1.3 验证Java版本

二、配置免密登陆

2.1 检测

2.2 生成私钥和公钥秘钥对

2.3 将公钥添加到authorized_keys

2.4 赋予authorized_keys文件600的权限

2.5 修改Linux映射文件(root用户)

2.6 验证

三、安装Hadoop-2.7.5

3.1 上传解压缩

3.2 创建安装包对应的软连接

3.3 修改配置文件

（1）修改hadoop-env.sh

（2）修改core-site.xml

（3）修改hdfs-site.xml

（4）修改mapred-site.xml

（5）修改yarn-site.xml

3.4 配置环境变量

3.5 查看hadoop版本

3.6 创建文件夹

3.7 Hadoop的初始化

3.8 启动HDFS和YARN

3.9 检查WebUI

四、Scala的安装（可选）

4.1 下载

4.2 上传解压缩

4.3 配置环境变量

4.4 验证是否安装成功

五、Spark的安装

5.1 下载安装包

5.2 上传解压缩

5.3 为解压包创建一个软连接

5.4 进入spark/conf修改配置文件

5.5 配置环境变量

5.6 启动Spark

5.7 查看进程

5.8 查看web界面

Spark学习之路（五）Spark伪分布式安装

1.1　上传安装包并解压

1.2　配置环境变量

1.3　验证Java版本

2.1　检测

2.2　生成私钥和公钥秘钥对

2.3　将公钥添加到authorized_keys

2.4　赋予authorized_keys文件600的权限

2.5　修改Linux映射文件(root用户)

2.6　验证

3.1　上传解压缩

3.2　创建安装包对应的软连接

3.3　修改配置文件

3.4　配置环境变量

3.5　查看hadoop版本

3.6　创建文件夹

3.7　Hadoop的初始化

3.8　启动HDFS和YARN

3.9　检查WebUI

4.1　下载

4.2　上传解压缩

4.3　配置环境变量

4.4　验证是否安装成功

5.1　下载安装包

5.2　上传解压缩

5.3　为解压包创建一个软连接

5.4　进入spark/conf修改配置文件

5.5　配置环境变量

5.6　启动Spark

5.7　查看进程

5.8　查看web界面